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Resume. Nous nous interessons a l’approche descriptive de l’analyse discriminante 
lineaire de donnees matricielles dans le cas binaire. Sous l’hypothese de separability de 
la variability des lignes de ccllc des colonnes, les combinaisons lineaires des lignes et 
des colonnes les plus discriminantes sont detcrminees par la decomposition en valeurs 
singnlicres de la difference des moyennes des deux classes en munissant les espaces des 
lignes et des colonnes de la metrique de Mahalanobis. Cette approche permet d’obtenir 
des representations des donnees dans des plans factoriels et de degager des composantes 
discriminantes. Une application a des signaux d’electroencephalographie multi-capteurs 
illustre la pertinence de la methode. 

Mots-cles. Analyse discriminante lineaire, donnees matricielles, matrice de covari¬ 
ance separable, decomposition en valeurs singulieres, signaux EEG 

Abstract. We focus on the descriptive approach to linear discriminant analysis for 
matrix-variate data in the binary case. Under a separability assumption on row and 
column variability, the most discriminant linear combinations of rows and columns are 
determined by the singular value decomposition of the difference of the class-averages 
with the Mahalanobis metric in the row and column spaces. This approach provides data 
representations of data in two-dimensional or three-dimensional plots and singles out 
discriminant components. An application to electroencephalographic multi-sensor signals 
illustrates the relevance of the method. 

Keywords. Linear discriminant analysis, matrix-variate data, separable covariance 
matrix, singular value decomposition, EEG signal 

1 Introduction 

L’analyse discriminante lineaire (LDA) de donnees strnctnrees de type matriciel est etndiee 
dans de nombrenx contextes notamment en classification de signaux multi-capteurs telles 
que les donnees electroencephalographiques (EEG) (e.g. Guitierrez & Escalona-Vargas, 
2010). Line approche simple pourrait etre de vectoriser les donnees et d’utiliser la LDA 
classique sans tenir compte de leur structure. Cependant, les vecteurs ainsi construits 
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sont generalement de tres grande dimension et la LDA classique est mise a defaut. En ef- 
fet, le nombre de parametres a estimer est souvent superieur au nombre d’observations et 
1’estimation de la matrice de covariance est done de tres mauvaise qualite. Afin de reduire 
le nombre de parametres a estimer il est usuel d’introduire une hypothese de separabilite 
entre la variability des lignes et cclle des colonnes. Ceci permet de prendre en compte la 
structure des donnees par un modele de covariance simple sous la forme du produit de 
Kronecker de la matrice de covariance des lignes et de cellc des colonnes (e.g. Akdemier 
& Gupta, (2011) et les references citees). Cette hypothese est raisonnable dans plusieurs 
situations et notamment dans Letude des signaux EEG, cadre applicatif de ce travail (e.g. 
Bijma et al ., (2005), Friston et al, (2005) et Mahanta et al, (2012)). 

L’objectif de ce travail est de proposer une methode de determination de combinaisons 
lineaires de lignes et de colonnes les plus discriminantes entre deux classes en tenant 
compte de la structure des donnees sous l’hypothese de separabilite. Notre approche 
repose sur la decomposition en valeurs singulieres (SVD) de la difference des moyennes en 
munissant les espaces des lignes et des colonnes de la metrique de Mahalanobis. Ceci nous 
permet d’extraire conjointement les combinaisons les plus discriminantes dans ces deux 
espaces et d’en deduire des representations graphiques de ces composantes ainsi que des 
visualisations des donnees matricielles dans des sous-espaces de dimension reduite. Une 
approche similaire a deja ete appliquee a l’extraction de caracteristiques discriminantes 
des potentiels d’erreur dans les signaux EEG dans un contexte de classification binaire 
par Spinnato et al. (2014). Dans ce travail nous developpons l’aspect descriptif de la 
methode et etudions son apport pour des signaux EEG dans un paradigme d’Interface 
Cerveau-Machine de type P300 Speller (Farwell & Donchin, 1988). 

La structure de cet article est la suivante. Nous introduirons tout d’abord quelques 
notations et definitions. Nous presenterons ensuite l’approche matricielle descriptive de 
la LDA binaire sous Lhypothese de separabilite et son apport en termes de reduction de 
dimension et d’extraction de caracteristiques discriminantes. Enhn nous montrerons la 
pertinence de la methode pour l’etude des caracteristiques discriminantes de potentiels 
evoques en EEG. 

Notations et definitions. Notons M Ax,/ l’espace des matrices reelles a K lignes et J 
colonnes. Soient M e M JxJ et D G M AxA deux matrices symetriques et definies positives. 
L’espace des lignes est dit muni de la metrique M si le produit scalaire sur cet espace 
est defini par (. x,u)m = x'My pour tout x, y G M J . De maniere similaire, l’espace des 
colonnes M A est muni de la metrique D. 

Definition 1 (Produit scalaire, norme matricielle). Soient X et Y des matrices G M AxJ , 
(X, Y) M)D = Tr(XMY'D) et \\X\\ 2 MiD = Tr(XMX'D ), (1) 

ou Tr designe I’operateur trace et X' la matrice transposee de X. 

Sachant que Tr [A'BCD) = vec(A)'(D <g) S)vec(G), ou vec(A) designe la vectorisation 
de la matrice A par concatenation de ses colonnes et (8) le produit de Kronecker, on obtient 
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Fequivalence entre lc produit scalaire defini en dll sur M AxJ et celui defini sur l’espace 

TS' T , ' * 

M muni de la metrique D ® M: 

{X, Y) m ,d = vec (X')'(D ® M)vec(Y') = (vec(V'), vec(Y')) mM . (2) 

2 Analyse discriminante matricielle descriptive sous 
l’hypothese de separability 

Modele et estimation 

Nous nous interessons a l’analyse discriminante binaire dans le cas de donnees structurees 

sous forme matricielle. Dans chacune des deux classes c = 1, 2, les observations X 2 C e M A xj 

pour i = 1 ,7i, sont considerees comme des realisations i.i.d. d’une matrice aleatoire 

X c de moyenne /x c dependante de la classe. De plus, nous supposons que les matrices de 

covariance des lignes 6 M AxA et des colonnes Y R G M JxJ sont independantes de c, 

inversibles et tcllcs que _ _ _ 

E = E L ®E i? , (3) 

ou S e M AJxAJ est la matrice de covariance de vec(V') e R KJ correspondant a la vec- 
torisation de la matrice X' c . 


Soient ri\ et n 2 les effectifs des classes 1 et 2. Posons n — n\ + n? . Comme definie 
par Dutilleul P. (1999), l’estimation des matrices de covariance El et E^ s’effectue de 
maniere iterative via une normalisation des J colonnes et des K lignes: 


ql 


-j 2 TL C 

= E Ere - Xc)(s&y l (xi - x c y , 

c=l i=l 


s$ = yy E E < A 1 - Y'is^-yxi - x c ), 

c=l i =1 


( 4 ) 

( 5 ) 


ou X c = — XI. Nous en deduisons l’estimation de la matrice de covariance E : 

c n c Y—Ji=l c 

S W = S A ® S* . (6) 

Remarque 1 (Identifiabilite). Pour tout n 7 ^ 0, notons que S{y ® Sfy- = ® K~ l Syy. 

Afin de resoudre ce probleme d'identifiabilite la norme de Sestfixee a 1 dans l’estimation. 

Decomposition en valeurs singulieres de la difference des moyennes 

Rechercher les combinaisons lineaires des lignes et des colonnes les plus discriminantes 
equivaut a decomposer en valeurs singulieres 1a, difference des moyennes empiriques des 
deux classes en munissant M J l’espace des lignes (resp. M A , l’espace des colonnes) de la 
metrique M = (S^j>) _1 (resp. D = ( S ^) _1 ). 


3 


( 7 ) 


Proposition 1. Soit Q le rang de la matrice X 1 — X 2 G M AxJ . 

Q __ 

Ai - X 2 = UA^ V' = ^ V\n q v' q , Oil 

9=1 

- U G M Ax< ^ a porir colonnes les vecteurs propres D-orthonormes de la matrice D-symetrique 
semi-definie positive (Ai — X 2 )M(X l — X 2 )' D associes aux Q valeurs propres non nulles 
X q rangees dans un ordre decroissant dans la matrice diagonale A. 

- V G M jx< ^ a pour colonnes les vecteurs propres M-orthonormes de la matrice M-symetrique 
semi-definie positive {X\ — Xfi'D^X\ — X 2 )M associes aux valeurs propres non nulles X q 

avec V = (X 1 - X 2 )'DU\ "3 . ( 8 ) 

D’apres (J2|, l’espace M AJ est muni de la metrique D ® M = S^. A partir de ([7]), 
sachant que \/ec(u q v q ) = u q ® v q , nous obtenons une decomposition pour la difference des 
moyennes vectorisees et pour la distance de Mahalanobis entre ces moyennes: 

Proposition 2. Soient u q ®v q , q — 1,... Q, des vecteurs -orthonormes de M A J . Alors 

Q _ 

vec(X' - A') = ^ V\( u q ® v q ), et (9) 

Q 9 =1 

||vec(A( — A _ 2 )|||-i = 22 \ avec \ ~ l( vec (^ 1 / — X 2 ),u q <8 v q ) s ^i\ 2 . (10) 

9=1 

Projection dans l’espace lignes-colonnes M A / . Les coordonnees des observations 
X 1 vectorisees sur les axes engendres par les vecteurs u q <g) v q pour q = 1 ,Q sont 
donnees par (vec((A*)'), u q <g) v q ) s - 1 . Pour la difference de moyennes, on obtient de plus 
l’erreur d’approximation. 

Proposition 3. Soit proj Sr (vec(A( — A^)) = Y? q =i \/\( u q ® v q ) la projection de la 
difference des moyennes sur E r le sous-espace engendre par les r premiers vecteurs u q ®v q . 

||vec(A( — A 2 ) — proj Er (vec(A( — A^)) |||_i = A r+ i + A r+2 + ■ • • + Xq ■ (11) 

Projection dans l’espace des lignes (M J ) et des colonnes (M A ). Les coordonnees 
des K lignes (resp. des J colonnes) de X 1 sur les axes engendres par les vecteurs v q , 
q — 1,..., Q (resp. u q , q — 1,..., Q) sont donnees respectivement par 

X'Mvq = X et (XffDug = (A fi\S^)~ l u q . (12) 

3 Application: etude des composantes discriminantes 

Donnees et pre-traitement. La methode presentee est appliquee a l’analyse en com¬ 
posantes discriminantes de potentiels evoques corticaux. Ces signaux EEG ont ete acquis 
dans le cadre du protocole P300 Speller (Farwcll & Donchin, 1988) dont le but est d’epeler 
des lettres en decodant Lactivite cerebrate. 
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Ce dispositif consiste a afficher une matrice 6x6 composee de h alphabet et des chiffres. 
Le participant souhaitant ecrire une lettre doit se concentrer sur la case correspondante 
dans la matrice, dont les lignes et les colonnes sont successivement et aleatoirement 
flashees. Lorsque la ligne ou la colonne contenant la lettre cible est flashee, plusieurs 
composantes electrophysiologiques sont generees et en particulier une composante visuelle 
(l’onde negative Nl) associee au stimulus visuel, suivie d’une seconde composante liee a 
la detection du stimulus (l’onde positive P300). Deux classes sont done considerees: les 
cibles (c = 1) et les non-cibles (c = 2). Afin d’epeler une lettre, chaque ligne et chaque 
colonne est flashee 3 fois, ce qui correspond a un total de 36 flasks dont 6 sont des cibles. 
Dans la suite, nous basons nos resultats sur un echantillon de 20 lettres epelees par un 
participant dans h experience menee par Perrin et al. (2011). 

Chaque essai i pour i = 1,... n, avec n = 720, correspond a une portion du signal 
enregistre dans l’intervalle de temps [—100ms; +900ms] ou zero represente l’instant du 
flash (frequence d’echantillonnage: 1000/7U). Une transformation en ondelettes discretes 
est appliquee en pre-traitement afin de resumer l’information temporcllc. Un filtre de 
Daubechies D8 est applique sur 5 niveaux de decomposition, et seuls les coefficients 
superieurs a leur moyenne ont ete conserves pour l’analyse. Les donnees pre-traitees sont 


done de la forme XI G 


S>KxJ 


ou K est le nombre de coefficients selectionnes (K = 28), 


J est le nombre d’electrodes (J = 32) et c precise la classe. 



(b) 





Cibles 
v non cibles 
^moy .cibles 
moy. non cibles 



Figure 1: Valeurs propres (a) et 

representation des observations et des 
moyennes dans le premier plan spatio- 
temporel (b). 


Figure 2: Composantes discrimi- 

nantes spatiales (a) et temporelles (b) 
de la difference des moyennes des 2 
classes. 


Projection de donnees dans l’espace spatio-temporel. La figure [l](a) represente 
l’eboulis des 28 valeurs propres non nulles. Dans un objectif de reduction de dimension, 
l’identification d’un ”coude” suggere de choisir le sous-espace de projection E r de dimen¬ 
sion r = 4. Cette approximation peut etre particulicrement utile en classification. La 
figure [ljb) represente la projection des observations sur le premier plan factoricl engendre 
par u\ ® v\ et «2 <E) rg ainsi que les deux moyennes des cibles et des non-cibles. Cette 
representation perrnet de visualiser la separation des deux classes dans ce sous-espace et 
de distinguer les observations atypiques. 

Analyse des composantes discriminantes. La figure [2](b) represente les trois pre¬ 
mieres composantes temporelles discriminantes. Elies ont ete obtenues par synthese 
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d’ondelettes a partir des projections des differences des coefficients moyens entre les classes 
cible et non-cible sur les axes engendres par v\, v 2 et V 3 . Les deux principales composantes 
associees respectivement a v\ et v 2 , deux vecteurs (S'^) _1 -orthogonaux, apparaissent si- 
milaires a l’onde N1 et a l’onde P300. Ceci semble done indiquer une forme de decouplage 
de ces deux composantes. La figure [2^a) represente la projection dans le plan (u\,u 2 ) 
des differences des moyennes des classes mesurees sur chaque electrode. A partir de cette 
representation des groupes distincts d’electrodes peuvent etre associes a chacune des com¬ 
posantes precedentes. De plus, on peut detecter des comportements atypiques, connne 
cclui de 1’electrode T8. Le comportement singulier de cette electrode situee sur la ternpe 
droite est connu (artefacts) et il n’est pas rare de devoir Lexclure des analyses. 

4 Conclusion 

Sous l’hypothese de separability, la formulation de l’analyse discriminante matriciclle 
binaire connne une SVD de la difference des moyennes des classes offre un cadre generique 
permettant d’utiliser les proprietes classiques de la SVD. Notamment, la dualite conduit 
a une analyse conjointe ligne-colonne qui fournit des descripteurs dans les deux domaines 
simultanement. D’autre part, la reduction de dimension induite peut etre utilisee en 
classification. Dans ce travail nous avons montre la pertinence de cette methode pour 
Lanalyse spatio-temporellc des signaux EEG. La methode permet d’extraire et d’analyser 
distinctement deux composantes (identifies aux ondes N1 et P300) qui semblent etre 
decouplees autant dans le domaine temporel qu’en termes de localisation spatiale. 
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